查看原文
其他

沙龙干货 | 基于Kubernetes的深度学习算法平台直播回顾集锦

陈兴振 58AILab 2022-03-15

随着Kubernetes容器技术的不断演进与日益成熟,云成为越来越多企业的基础设施。自2017年初开始,58技术团队逐步实践Kubernetes和Docker技术,打造了承载全集团千亿级流量的私有云平台,构建了支撑集团所有AI团队开展算法研发的深度学习平台,并将58自研搜索系统云化,打造了一站式搜索私有云平台“云搜”。
58同城技术委员会AI分会联合ITPUB将举办一期线上沙龙《Kubernetes在58的应用实践》,详细解析私有云、深度学习平台和云搜中的Kubernetes实战经验。58同城AI Lab后端架构师陈兴振于2020年5月27日20:00-21:00分享了《基于Kubernetes的深度学习算法平台》,以下是分享内容!

分享PPT下载

关注58AILab公众号,并发送消息 “K8S” 可获取PPT文件下载链接。

分享录像回放

Q&A集锦

问题1:WFS 性能怎么样?对小文件的读写性能怎么样?例如图片,语音这种。假设我有500G的语音文件,去训练,会咋样?

答:WFS是58集团存储服务部开发的高性能网络存储系统,用户可以将WFS目录挂载到本地以本地文件系统方式进行访问。WFS经过多个版本迭代,目前功能基本稳定,性能还在持续优化中,WFS大文件读写性能能到达物理机带宽速度。小文件读写性能跟存储配置有关系,如是否使用SSD、存储节点数量、网络带宽等。在不使用SSD、万兆以太网下小文件读速率是hdfs的2~3倍,写速率是hdfs的40+倍。 

问题2:k8s 是原生的吗?

答:是的,目前用的社区的K8S版本

问题3:yaml是通过json生成的还是通过模版传入变量生成的?

答:提交到集群的yaml是通过用户在平台web门户配置参数,传递到后台,后台程序通过k8s api将yaml写入k8s集群。

问题4:这里多个模型混合部署,假如有一个模型原来流量少,突然流量增加了,就会影响其他模型,这里怎么处理的?是自动处理吗?

答:多个模型混合部署,其中一个模型流量突然增加不会影响到其他混部的模型。模型进行混部前都会先线上独立部署运行一段时间得到GPU使用率和QPS流量,切混合部署时会根据实际情况申请 GPU资源并设置QPS上限,当某个模型流量突增超过设置QPS时会被秒级限流模块进行限流并进行告警,下一步需要人工进行干预调整该模型资源大小或切换成独立部署。

问题5:Pytorch能混合部署么?

答:可以混合部署,PyTorch没有提供类似TensorFlow-Serving的服务化框架,我们基于Seldon封装了PyTorch模型推理RPC服务,当前封装的这套RPC服务已经兼容PyTorch模型混合部署,近期会进行上线。

问题6:k8s 集群规模有多大

答:大约有几百台物理机。 

问题7:推理引擎主要支持的是Tensorflow么?

答:当前平台支持的TensorFlow、PyTorch、Caffe三个深度学习框架的模型推理,公司用的比较多的是TensorFlow和PyTorch。

问题8:推理引擎的软件也是跑在pod里,利用hpa伸缩吗

答:推理引擎的应用程序也是跑在后端pod里,目前没有使用hpa自动伸缩功能。 

问题9:shareGPU能支持隔离吗?

答:目前调研到的GPU Sharing常用解决方案都不支持GPU资源的隔离,关于GPU Sharing下如何做资源隔离我们还在调研解决中。 

问题10:mount wfs为什么没有选择pv/pvc的方式

答:wfs发布的第一版本物理机安装客户端的方式没有支持pv/pvc。

问题11:我们可以在wpai下载除了weight以外的其它文件吗?比如pd文件

答:模型训练过程中用户保存的文件都可以进行下载,需要用户将文件保存在设定目录下。

问题12:推理服务的那种方案,前面一个服务去接收请求转发到pod,这里pod示例服务的ip是怎么弄的,这里k8s内部网络配置怎么搞的

答:pod实例服务的IP用的是集群内部的虚拟IP,通过k8s网络插件calico来实现内部IP的分配和组网。

我们将深度学习算法平台中的推理服务进行了开源,项目名称为dl_inference

项目地址:    

https://github.com/wuba/dl_inference

dl_inference 相关文章:

开源|dl_inference:通用深度学习推理服务

dl_inference 直播回放:

直播回放 | 通用深度学习推理服务dl_inference开源项目解析




【招聘信息】

58同城AI Lab 社招/校招/实习生 招聘,欢迎加入


AI Lab部门介绍

58同城TEG技术工程平台群AI Lab,旨在推动AI技术在58生活服务行业的落地,打造AI中台能力,以提高前台业务的人效和用户体验。AI Lab目前负责的产品包括:智能客服语音机器人智能写稿、智能营销、AI算法平台、智能语音分析平台、语音识别引擎等,未来将持续加速创新,拓展AI应用。

欢迎关注部门微信公众号:58AILab
欢迎添加部门小秘书微信进一步沟通交流

欢迎加入58 AI Lab技术交流社区

欢迎在欣秀https://app.ic3i.com)平台上加入"58同城AILab技术沙龙"圈子,一起交流技术,可以扫描以下二维码加入该圈子:

团队照片


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存